Michal Kosinski 隐私挖掘

Building a profile of subjective well-being for social media users

Building a profile of subjective well-being for social media users by L. Chen , T. Gong , M. Kosinski, D. J. Stillwell, R. L. Davidson. PLOS ONE, 2017.

主观幸福包括“情感”和“生活满意度”(SWL)。本研究提出了一种基于Facebook状态更新的社交媒体语言来构建主观幸福感的统一方法。通过情绪分析来生成用户的情感分数,训练一个随机森林模型来预测SWL,使用情感分数和状态更新的其他语言功能。结果表明:计算机选择的功能类似于早期研究中确定的SWL的关键预测因子;机器预测的SWL与自我报告的SWL中度相关(r = 0.36,p <0.01),表明基于语言的评估可以构成有效的SWL测量;机器评估的情绪分数与之前的实验研究中报告的情况类似;机器预测的主观幸福感也可以反映其他心理特征如抑郁(r = 0.24,p <0.01)。这项研究提供了重要的洞察心理预测使用多个机器评估组件和纵向或密集心理评估使用社交媒体语言。

Private traits and attributes are predictable from digital records of human behavior

我们展示了易于访问的数字行为记录,Facebook的喜欢,可以用来自动和准确地预测一系列高度敏感的个人属性,包括:性取向,种族,宗教和政治观点,人格特质,智力,快乐,使用成瘾物质,父母分居,年龄和性别。所提供的分析是基于超过58,000志愿者的数据集,他们提供了他们的Facebook赞,详细的人口统计资料以及几项心理测试的结果。所提出的模型使用降维来预处理喜欢的数据,然后进入逻辑/线性回归预测喜欢的个人psychodemographic配置文件。在88%的案例中,模型正确地区分了同性恋和异性恋者,非裔美国人和高加索裔美国人在95%的案例中,民主党和共和党在85%的案例中也是如此。对于人格特质“开放性”,预测准确性接近标准人格测验的重测精度。我们举例说明属性和喜欢之间的关联,并讨论对在线个性化和隐私的影响。

You are Who You Know and How You Behave: Attribute Inference Attacks via Users’ Social Friends and Behaviors

我们提出新的隐私攻击来推断在线社交网络用户的属性(例如位置,职业和兴趣)。我们的攻击利用在线社会网络中看似无害的用户信息来推断目标用户的缺失属性。鉴于在线用户信息越来越多,我们的结果对于互联网隐私具有严重的影响 - 除非我们采取措施保护用户免受此类推理攻击,否则私有属性可以从用户的公开可用数据中获得。为了推断目标用户的属性,
ence攻击利用用户公开可用的社交朋友或用户的行为记录(例如,用户在Facebook上喜欢的网页,用户在Google Play上查看的应用),但不是两者。正如我们将要显示的,这样的推理攻击实现有限的成功率。但是,如果我们考虑到社交朋友和行为记录,这个问题就会变得非常不同。为了应对这一挑战,我们开发了一种新型的模式来整合社交朋友和行为记录,并基于我们的模型设计新的攻击。我们从理论上和实验上证明了我们攻击的有效性。例如,我们观察到,在一个拥有110万用户的现实世界的大规模数据集中,我们的攻击可以正确推断57%的用户居住在城市中。通过置信度估计,如果攻击者有选择性地攻击一半用户,我们可以将攻击成功率提高到90%以上。而且,我们显示我们的攻击可以正确地推断显着的属性

AttriInfer: Inferring User Attributes in Online Social Networks Using Markov Random Fields

在属性推理问题中,我们的目标是利用在线社交网络中的公共数据来推断用户的私有属性(例如位置,性取向和兴趣)。最先进的方法利用用户的公共朋友和公共行为(例如Facebook上的页面喜好,用户在GooglePlay上查看的应用)来推断用户的私有属性。但是,这些方法存在两个关键的局限性:1)假设我们旨在使用训练数据集来推断目标用户的某个属性,他们只利用具有该属性的标签用户,而忽略用户的标签信息没有这个属性; 2)他们是低效率的,因为他们一一推断目标用户的属性。因此,它们在现实世界的社交网络中的准确性和适用性有限。在这项工作中,我们提出了一种推断用户的新方法AttriInfer
在线社交网络中的属性。 AttriInfer可以利用朋友和行为,以及具有属性和没有属性的培训用户的标签信息。具体而言,我们将社交网络建模为成对的马尔可夫随机场(pMRF)。给定一个训练数据集,该训练数据集由一些具有一定属性的用户和一些没有一定属性的用户组成,计算目标用户具有属性的后验概率,并使用后验概率推断属性。在AttriInfer的基本版本中,我们使用Loopy Belief Propagation(LBP)来计算后验概率。但是,LBP不能扩展到非常大规模的现实社交网络,并且不能保证收敛。因此,我们进一步优化了LBP的可扩展性,保证了收敛。我们评估了我们的方法,并将其与使用具有5.7M用户的真实世界的Google+数据集的最新方法进行比较。我们的研究结果表明,我们的方法在准确性和效率两方面都大大超过了最先进的方法。

坚持原创技术分享,您的支持将鼓励我继续创作!